../_images/%E6%97%A5%E6%97%A5%E6%96%B0%E5%BD%A9%E8%89%B2%E7%89%88.png

SenseNova-5o 产品介绍

Sensenova-5o 基础架构

../_images/5O%E7%AE%97%E6%B3%95%E6%9E%B6%E6%9E%84%E5%9B%BE.png

1. 背景信息

Sensenova-5o(“o”代表“o​​mni”)迈向更自然的人机交互的一步,目前已经实现了音频与图像和视频的任意组合输入,并直接生成语音。目前我们已支持半双工及全双工的交互模式,后续将同时提供两种交互模式的服务。 半双工服务模式下可以支持平均560毫秒(忽略网络延时的影响)响应音频与图像输入,与人类的对话交互响应类似。 支持图像解析1200 x 800px,音频长度不超过30S输入,视频分辨率不超过720p。

2. 产品形态

我们主要通过 API 的方式提供 Sensenova-5o 的调用服务,因此产品的主要形态仍以模型云服务为主,向客户开放 API 接口调用。

全双工:

类似电话的通信模式,AI 可以实时理解用户意图并生成回应,实现流畅自然的语音+视频交互,提供接近人类面对面交流的体验。
  • 端到端API:我们基于第三方供应商webrtc服务完成音视频传输的连接及交互,在此基础上,我们提供了一个基于Websocket协议的API,用以连接第三方webrtc服务及设置sensenova-5o模型服务的各种参数。另外,为了避免噪声误触影响 Sensenova-5o模型体验,用户需要自行调用第三方RTC服务中的回声消除及降噪模块,或在端侧进行相关处理。

  • 我们同时还提供其他更为灵活的调用组合选择,以支持不同用户的需求:

    • API+webrtc网络+语音生成的完整端到端服务。语音部分可以提供多种不同的音色选择

    • 仅API+webrtc网络。客户可以选用自己的TTS语音服务

    • 仅提供模型API。需要客户自行调用webrtc传输音视频,并自行调用第三方TTS实现语音回复

    • 以上提供的方式均已涵盖语音实时对话及视频实时对话,以便用户根据自己的业务需求进行选择

半双工:

类似对讲机的通信模式,双方交替发言,适用于特定场景的对话需求。
  • API为云端调用方式,输入图片流/视频流+语音,输出语音。若以API接入,需自行实现视频选帧逻辑。

    • API基于Websocket协议开发,可支持图片流传输。

  • SDK为端侧client,内部封装了视频选帧逻辑+API调用,输入视频+语音,输出语音。

    • SDK目前暂时也只提供Websocket的协议接入。

    • 目前暂时覆盖 linux、Andriod 两个平台,具体依赖信息详见使用指引。

3.产品特点

5o不仅是一个仿佛真人般的能看能说的伙伴,更是一个能够全方位理解和响应您需求的小助理。我们具备以下能力:

  • 音视频多模态交互:5o能够同时处理音频和视频数据,实现更自然、更直观的交流方式,目前已同时支持纯语音实时对话及视频实时对话的交互模式。

  • 实时视频理解:5o具备推理能力,能够实时理解视频内容,结合上下文内容做出合理的回复。

  • 随时打断:用户可以随时打断对话,5o能够理解打断的意图,并及时做出合理的推理和回应。

  • 个性化表达:根据用户的设定和偏好,5o能够调整对话风格,实现个性化的交流。

  • 情绪识别:视频交互下通过分析语音和面部表情,5o能够感知用户的情绪,从而提供更合适的回应。

  • 物体识别:5o能够识别视频中的物体,提供更加丰富和具体的描述内容。比如艺术品鉴赏。

  • 场景识别:5o能够识别视频中的场景和环境,并对场景和环境做出适当的描述。比如居家和办公环境,旅游导览等。

  • 其他多场景应用:无论是家庭娱乐、在线教育还是健康咨询,5o都能在多个场景下扮演一个真人伙伴或助教的角色。

4. 产品体验

为了能让用户快速体验SenseNova-5o的实时交互,我们还提供了一套web的体验入口,可方便用户在网页端直接体验音视频的实时交互效果。
同时,需要用户申请对应的权限,具体操作可参考Sensenova-5O接入使用须知。
web体验入口(网址:https://api-gai.sensetime.com/agent-5o/duplex/demopage?jwt= 需要后续填入获取的token

试用需联系 SenseNova-50-support@sensetime.com 获取iss和secret,并基于iss和secret生成iwt token

5. 产品计费模式

目前,我们提供限时免费体验,如需了解详细的定价信息和定制方案,请发送邮件至 SenseNova-5o-support@sensetime.com 与我们联系。我们的销售团队将根据您的实际需求,提供专业的咨询和服务。

6. 如何申请试用

需要发送邮件到 SenseNova-5o-support@sensetime.com 申请,申请邮件具体信息填写参考如下:

客户名称

接口人

联系方式

预计应用场景

交互模式(全双工/半双工)

我们期待并重视用户的使用体验和反馈。我们希望了解到您将如何部署sensenova-5o,以及用于哪些场景。我们也将持续提供技术支持,并根据反馈进行版本更新,确保性能与功能始终处于行业领先水平。